花費 43 ms
特征工程系列:(六)特征選擇之方差過濾

有時候,數據集中的某一個特征,方差非常小,非常接近,這樣導致的結果就是,沒有區分度,那么這個特征其實就不是一個好的特征,因此方差過濾的思想就是,找到那些有區分度的特征(方差大) 如果一個特征服從 ...

Fri Aug 27 22:24:00 CST 2021 0 217
特征工程系列:(三)特征對齊與表征

數據對齊 Z分數標准化     將數據轉換成服從標准正太分布的數據     $$     \hat x = \frac{x-\mu}{\sigma}     $$ 歸一化     將數據 ...

Mon Jul 19 21:44:00 CST 2021 0 271
特征工程系列:(四)異常值識別與處理

在進行特征工程的時候,為了確保模型的准確性,需要將一些異常數據排除,從而防止模型被帶偏。因此,在特征工程任務中,需要一些方法,來識別異常值。 異常值識別 (1) 箱線法 通常用戶用某個統計分布對 ...

Mon Aug 02 06:30:00 CST 2021 0 207
特征工程系列:(二)缺失值處理

Pandas判斷缺失值 注意,有些數據用0代替特征值,這個時候,可以將0用None 代替,這樣,isnull 函數就可以檢測出來了,而且fillna 和dropna函數都可以直接工作了。 處理 ...

Mon Jul 19 06:11:00 CST 2021 0 177
特征工程系列:(五)特征構造

有的時候,已有的特征可能並沒有有效的表征特征,尤其是針對特殊的業務的時候,極有可能需要對已有的特征進行變換,從而讓特征更加能夠表征特有的業務。這里介紹幾種常用的特征構造方法。 (1) 統計量構造 ...

Wed Aug 04 00:23:00 CST 2021 0 115

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM